ApacheSpark相关论文
随着互联网、大数据等新兴技术的日益发达,各大网络视频平台中电影的市场规模不断扩大,这为互联网用户提供了丰富多彩的视觉盛宴。......
随着信息化建设,互联网行业的发展,各种信息设备在运行和通信中,会产生大量的网络日志数据。网络日志的内容是非结构化的格式,获取相关......
期刊
在实际生活中存在大量的由数值型和分类型所组成的混合型数据,K-Means算法作为聚类分析算法之一,却只适用对数值型数据挖掘分析,当......
校史编研工作是档案编研的一项重要内容,目前还存在工作效率低、成果挖掘深度不够、展示形式单一、成果无法有效利用等问题.为解决......
互联网的发展带来了很多便利,人们在享受这些的便利的同时,也在经受着愈发激烈和复杂的网络异常攻击的威胁。传统基于签名的防火墙......
Skyline查询算法,从被提出以来,就得到了大量的关注。该算法能够很好地描绘数据的概况,展现数据的走向。Skyline查询算法在多规则......
随着大数据时代的到来,用户对于海量数据计算和存储的需求不断提高。Spark作为一个基于内存计算的分布式计算框架以其优异的性能在......
决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基......
随着互联网的快速发展,"大数据"已然成为了一个21世纪的关键词,它具有推动科学技术发展,社会生产生活的巨大潜力。在短短的数年间......
特征选择是当前机器学习和数据分析中去除不相关和冗余特征从而提供快速可靠分析的关键步骤。在众多的特征选择算法中,粗糙集属性......
非均衡数据场景在现在的大数据处理,机器学习任务中十分常见。标准的机器学习算法一般都是以样本数据分布大致均匀为前提建立的,然......
学位
近年来供热二次管网的平衡调控与节能逐渐成为供热企业关注的焦点。随着热计量器具的大量安装和海量数据的自动采集,供热企业积累......
伴随着日益增长的大数据相关的业务需求,大数据计算在科研领域及企业界都有着广泛的应用,例如数字图像处理、用户需求的预测等等,......
学位
随着信息化产业的快速发展,越来越多的行业正面临着数据量巨大、数据种类复杂、数据处理速度要求更快、数据计算准确性要求更高等......
学位
近年来,大数据领域的技术发展已经吸引了来自学术界和科技产业界甚至开发者社区越来越多的目光。如何针对密集性大数据高效的完成......
近年来,由于互联网用户数量的增加和互联网技术的进步,数据量以前所未有的速度爆炸式增长。这些用户不仅可以从互联网上获得数据,......
这篇文章的研究目标是在Apache Spark平台上实现权重张量近似法(Weighted Tensor Approximation,WTA),同时使得张量压缩时间尽可能......
随着人类进入信息数字化时代,催生出了海量数据,由此给许多技术带来了新的挑战。最近,基因信息的数字化使得生物基因数据呈指数级......
人脸识别获取途径简单,具有仿生物辨别等优势,在刑侦、商业、安全等社会活动中应用越来越多。监控视频等视频文件获取途径广泛,资......
学位